خوشه بندی اسناد xml با استفاده از جنبه های مختلف اسناد

پایان نامه
چکیده

به واسطه قالب نیمه ساختیافته و خاصیت خود توصیف بودن، xml به ابزاری مناسب جهت بازنمایی و تبادل داده روی وب تبدیل گشته و امکان مدل کردن انواع مختلفی از داده ها را فراهم کرده است. با توجه به گسترش روزافزون استفاده از اسناد xml روی وب و اهمیت سازماندهی این اسناد، مطالعه و بررسی این موضوع و ایجاد بهبود روش های خوشه بندی اسناد xml جهت استفاده موثرتر از آنها ضروری می نماید. یکی از مهمترین چالش های موجود در این زمینه، کاوش حجم عظیمی از اسناد ناهمگن xml با در نظر گرفتن معنای ساختاری در کنار ساختار و محتوای اسناد می باشد. استخراج ویژگی های مهم، مدل کردن و ترکیب ساختار و محتوای اسناد با در نظر گرفتن معنای ساختاری درون اسناد به منظور کاوش سریع و خوشه بندی کارآمد روی مجموعه اسناد xml ناهمگن در زمانی قابل قبول، به عنوان هدف اصلی این پژوهش تلقی می شود. اساس خوشه بندی اسناد xml بر مبنای استفاده از معیاری است که تعیین کننده میزان شباهت بین اسناد می باشد که این شباهت می تواند از جنبه ساختار، محتوا، مفهوم و یا ترکیبی از هر یک از آنها باشد. سپس با اعمال الگوریتم های خوشه بندی متداول و یا بهبود یافته آنها، گروه بندی اسناد صورت می گیرد. در این تحقیق در راستای رفع چالش های مطرح شده روشی جهت استخراج ویژگی های ساختاری مبتنی بر مفهوم فرکانس مسیر-واژه و با در نظر داشتن معنای نهان در ساختار اسناد، به همراه ضرایبی جهت وزن دهی این ویژگی ها ارائه شده است. سپس دو روش مجزا جهت خوشه بندی اسناد xml ارائه شده است. در روش اول یک الگوریتم خوشه بندی نیمه نظارتی مبتنی بر شبکه عصبی som پیشنهاد گشته و در روش دوم که روشی فاقد نظارت است با تعریف معیار شباهت مبتنی بر برچسب ها و یال ها، الگوریتم های islb و eislb جهت خوشه بندی اسناد ارائه گردید. روش های پیشنهادی به صورت مجزا با استفاده از دو مجموعه داده ی acm sigmod و niagara مورد ارزیابی و با روش های متفاوت فاقد نظارت اعمال شده روی همین مجموعه داده ها مورد مقایسه قرار گرفته است. نتایج بدست آمده از آزمون ها حاکی از آن است که روش اول روشی مناسب در روش های نیمه نظارتی محسوب می شود ضمن اینکه روش دوم علاوه بر اینکه نسبت به روش اول نتایج بهتری بدست آورده نسبت به روش های موجود نیز عملکرد بهتری بدست آورده است.

منابع مشابه

خوشه بندی اسناد xml به منظور کشف دانش

امروزه اطلاعات موجود بر روی وب به سرعت در حال افزایش است و حجم بسیار زیادی از این اطلاعات در قالب xml ارائه شده است. یکی از مزایای اصلی استفاده از xml، نمایش داده های غیر ساخت یافته است که قابلیت های بسیاری را در اختیار کاربران قرار می دهد. ویژگی غیر ساخت یافته بودن اطلاعات و انعطاف پذیری xml باعث همه گیر شدن استفاده از آن شده است. با توجه به رشد فزاینده ی تعداد اسناد xml، سازماندهی موثر این ...

15 صفحه اول

بسط پرس وجو با خوشه بندی اسناد شبه بازخورد با شباهت حساس به پرس وجو

بسط پرس‌وجو به‌عنوان یکی از روش‌های انطباق پرس‌وجو، اثربخشی جستجو را در بازیابی اطلاعات افزایش می‌دهد. بازخورد شبه مرتبط (PRF) روشی برای بسط پرس‌وجو است که فرض می‌کند اسناد رتبه بالا از نتایج اولیه مرتبط به موضوع پرس‌وجو هستند و کلمات بسط را از این اسناد انتخاب می‌کند. درحالی‌که ممکن است اسناد نامرتبط به پرس‌وجو در اسناد رتبه‌بالا وجود داشته باشد. روش‌هایی برای انتخاب اسناد مرتبط و نادیده گرفتن...

متن کامل

ارتقاء کیفیت سیستم های بازیابی اطلاعات متنی با استفاده از الگوریتم های خوشه بندی اسناد

سیستم های بازیابی اطلاعات، با استفاده از یک استراتژی بازیابی خودکار تلاش می کنند اسناد مرتبط بیشتری را برای کاربر نمایان ساخته به نحوی که تا حد ممکن هیچ سند غیر مرتبطی بازیابی نگردد. در شاخه بازیابی اطلاعات، ارزیابی سیستم بازیابی اطلاعات نقشی اساسی ایفا می کند. در این خصوص، ارزیابی میزان کیفیت و اثربخشی بازیابی مهمترین نوع ارزیابی سیستم می باشد که تعیین کننده آن است که یک سیستم یا الگوریتم، تا ...

15 صفحه اول

خوشه بندی اسناد مبتنی بر آنتولوژی و رویکرد فازی

داده کاوی که به عنوان استخراج دانش از پایگاه داده ها نیز شناخته می شود، روالی برای استخراج دانش ناشناخته از داده است. کاوش اسناد بر اساس روش های داده کاوی به استخراج اطلاعات و دانش از اسناد می پردازد. خوشه بندی اسناد یکی از مهمترین روش های کاوش اسناد است که دسته بندی بدون سرپرست اسناد به گروه های مختلف می باشد. سیستم های رایج بازیابی اطلاعات و خوشه بندی اسناد بر کلمات کلیدی استوار می باشند. با ...

متن کامل

طبقه بندی سنگ ‏های ساختمانی از دیدگاه قابلیت برش با استفاده از روش خوشه بندی فازی

پیش بینی قابلیت برش سنگ به عنوان یکی از فاکتورهای موثر در تخمین هزینه‏ها و پیش بینی میزان تولید یک کارخانه فرآوری سنگ از اهمیت بالایی برخوردار می‏باشد. بنابراین شناخت کامل سنگ‏های ساختمانی و ارزیابی توان اجرایی دستگاه‏های برش در کارخانه‏های فرآوری، طراحان و برنامه‏ریزان تولید را به سمت بهبود سرعت فرآوری و افزایش تولید سوق می‏دهد. از اینرو، به کارگیری روش‏های نو و کاربردی برای دست‏یابی به این اه...

متن کامل

اثربخشی بسط پرس وجو مبتنی بر خوشه بندی اسناد شبه بازخورد با الگوریتم k-nn

بسط پرس وجو یکی از روش های مؤثر در بهبود اثربخشی نتایج بازیابی اطلاعات است. روش بازخورد شبه مرتبط (prf) فرض می کند که اسناد رتبه بالا از نتایج اولیه بازیابی شده مرتبط به پرس وجو است و تعدادی کلمه مرتبط را از اسناد رتبه بالا برای بسط انتخاب می کند. وجود اسناد نامرتبط در بین اسناد رتبه بالا محققان را به ارائه روش هایی برای انتخاب بهترین اسناد به عنوان منبع برای انتخاب کلمه بسط سوق می دهد که انتخا...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه الزهراء - دانشکده فنی

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023